机器翻译:生于冷战,却为人类重建巴别塔 | 总编专栏
本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第七回。在这一回中,陈宗周先生将带领我们回顾机器翻译半个多世纪的发展史。这个在诞生后不久一度陷入低潮的领域,是如何实现飞跃,并可能在不久的将来打破不同民族间的语言壁垒?
陈宗周是《环球科学》杂志社社长,《电脑报》创始人。
2017年3月的全国“两会”上,李克强总理来到安徽代表团。讯飞公司董事长刘庆峰拿起桌子上一部手机模样的小设备,说出总理以前对讯飞的勉励——让世界聆听我们的声音,机器马上翻译成流利的英文。他又说“这个哈密瓜很甜”,机器立刻又翻译成流利的维吾尔语。这部叫晓译多语种翻译机的小机器,是讯飞公司的产品。
2016年11月的一天,东京大学教授、人机交互专家历本純一(Jun Rekimoto),在社交网络上发现一个消息:谷歌翻译有了巨大提升。他亲自访问了谷歌翻译的页面开始体验,他被震惊了。
他对比了两位日本翻译家所翻译的《了不起的盖茨比》中的几句话与谷歌翻译出的结果。他认为,谷歌的日语翻译非常流畅,比起翻译家的作品,对他而言,更加易懂。
他随后又在谷歌翻译上输入美国作家海明威作品的日文版,翻译为英文,结果发现机器翻译与海明威英文原著有着惊人的相似度。
上面的两个场景都和机器翻译有关,前者叫语音翻译,后者叫文本翻译,而这两种翻译,核心问题都在于自然语言理解。
机器翻译的早期发展
机器翻译(Mchine Translation,MT),又称自动翻译,是用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译是AI中的明星技术。因为它是实现不同民族不同语言人群无障碍交流的最有力助手。圆满解决机器翻译难题,重建巴别塔的梦想也就实现了。
正像计算机是被战争催生出一样,机器翻译这个想法的出现,也与军事有关。1946 年,第一台计算机ENIAC诞生后不久,洛克菲勒基金会的美国科学家瓦伦·威弗(Warren Weaver)等人在思考计算机未来应用时,想到了第二次世界大战期间,图灵用机器破译密码取得的巨大成功。他们认为,语言翻译与破译密码相似,都是把一种符号转换成另一种符号,同样可以用机器来完成。沿着这样的思路,1949年,威弗发表《翻译备忘录》,正式提出机器翻译的思想。
机器翻译的先驱——瓦伦·威弗
机器翻译的想法提出后立即受到重视,美苏两国当时正值冷战期间,俄文情报资料的翻译,需求量很大。1954年,美国乔治城大学和IBM共建的实验室研制出第一台机器翻译演示系统。这个现在看来比玩具好不了多少的系统,可以将俄语翻成英文。系统容纳250个单词,遵循六条语法规则,只可以翻译49个仔细挑选的句子。但是,这仍然是个了不起的成就,已经足以点燃人们的热情。记者这样兴奋地报道:今天,电子大脑首次将俄语译成英语。美国国防机构和计算机科学家乐观期望,机器翻译将在五年之内实现。
机器翻译也吸引了苏联、日本和欧洲国家的研究兴趣。一时间,各国政府纷纷拨款,全球机器翻译热潮兴起。
好景不长,机器翻译研究进展缓慢,开始受到广泛质疑。1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,ALPAC),进行为期两年的调研和测试。1966年11月,该委员会公布了题为《语言与机器》的阿尔帕克(ALPAC)报告,全面否定了机器翻译的可行性,认为十年研究未能完成预期目标,并在近期或可以预见的未来,也没有开发出实用的机器翻译系统的希望,建议停止经费支持。报告给了正在蓬勃发展的机器翻译当头一棒,它很快转入低潮。
为什么机器翻译研究进展缓慢,这是因为自然语言理解当时很难取得实质性突破。自然语言理解(Natural Language Understanding,NLU),是解决对语音信息和文本信息的理解问题的重要AI学科。通俗说,是要解决要听得懂和看得懂这两个问题。语音翻译和文本翻译虽然也有各自关注的技术难点,但共同面对的核心难题都是自然语言理解。这是一个很高、甚至是终极的目标,所以许多研究者喜欢用另外一个词,即自然语言处理(Natural Language Processing,NLP)来描述这一学科,强调过程而不是目的。
人类社会在漫漫长路中形成的语言,是一个非常复杂的系统。最初的研究者,对问题的复杂性缺乏深入了解。从方法上,他们希望迅速找到语言规则,就像找到密码的编码规则就很容易破译密码一样,如果找到语言规则,就能够理解自然语言,机器翻译难题就解决了。
但是,语言的规则实在太复杂了。就以文法规则来说吧,有人计算过,如果仅仅覆盖20%的真实语句,文法规则至少需要数万条。而如果要覆盖50%的真实语句,以后每增加一个新句子,就要新增数条文法规则。由于语言是发展和流动的,真实句子实际上变化无穷,文法规则难以穷尽。
再从计算复杂度考虑,图灵奖得主高德納(Donald Ervin Knuth)从理论上指出了文法与计算复杂度的关系。如果上下文无关,计算复杂度是语句长度(即有多少单词)的二次方;而如果上下文有关,计算复杂度是语句长度的六次方。单单分析一个有二三十个单词的句子的文法,就是用今天的高性能计算机,也要计算几分钟。所以,要完全从规则上理解上下文有关联性的一篇文章或者一段长语音的文法,复杂度就会使计算耗时难以想象。在上世纪70年代,即使是拥有大型计算机的IBM,也做不到用文法规则的方法来分析一些真实语句。
当然,上述分析是在非限制性的语言应用环境中得出的结论。在实际应用中,语言的应用都是限制性的,比如不同文化、不同学科、不同情景下应用语言都有各自的特征。在限制性语言应用环境中,问题要简化很多。于是,基于语言规则的机器翻译仍然在努力前行,也取得了一定的成果。而另一种方法,即基于统计的机器翻译开始崭露头角。
统计翻译的登基之路
我们在第五回提到上世纪70年代IBM沃森实验室的贾里尼克,他提出了统计语音识别的理论框架,简洁地用两个隐马尔可夫模型——声学模型和语言模型来清晰概括语音识别。这个框架对语音和语言处理都有着深远影响。从此,自然语言处理开始走上统计方法之路。
对基于语言规则的机器翻译系统来说,需要大量特定语言的语言学家编撰相应语言的大型词典,制定大量的语法、句法、语义学有关的规则。词典和语法规则库构成翻译知识库,机器根据这些词典和规则进行翻译。这与人通过查词典和语法书理解语言并进行翻译十分类似。其中,规则很繁复,对于由数十万词汇构成的词库,翻译系统包含的语法规则可能高达数万条。
而统计翻译则避开语言规则。统计语言学开创人贾里尼克有一句名言:我每开除一个语言学家,语音识别的正确率就提高1%。这句极端的话,说明他对语言规则的无视。
统计翻译用大量的双语文本,建立两种语言的平行语料库。翻译时对单词通过语料库进行匹配(后来又发展到对词组、短语乃至整个句子进行匹配),然后根据匹配概率,来评判和选择翻译结果。
统计翻译的另外一种方法是建立双语对照的实例库,这是一个更庞大的语料库。翻译时根据实例进行匹配。
统计翻译避开繁杂的语法规则,显而易见更为简单,而且是威弗提出《翻译备忘录》时的原始想法。但是,统计翻译需要大规模的语料库,这在当时并不容易做到。所以,自然语言处理从基于规则转向基于统计并没有那么简单,而是经历了很长的过程。基于规则的自然语言处理,后来在采用新技术以后,仍然在发挥作用。不过,随着互联网的普及,大规模语料库逐步建成,统计翻译最终成为主角。
机器翻译行业最早的开发者和软件提供商Systran,就是见证这一过程的活样板。Systran是老一代基于规则的机器翻译技术的商业化代表,于1968由彼得·托马(Peter Toma)创办。托马是一位科学家,当时在前面提到的美国乔治城大学机器翻译项目组工作,之后他以大学机器翻译研发小组为班底,创办Systran机器翻译公司。在ALPAC报告后,政府资助经费锐减,Systran公司却生存下来,是少数几个活下来的机器翻译公司之一。1986年,Systran被卖给一个法国家族,后来在法国上市;2014年,又卖给一家韩国公司。
Systran公司
这家几十人的小公司,一直靠自己的技术从上世纪60年代走到今天。慢慢发展到支持多语种互译,产品大量内嵌在雅虎、谷歌、美国在线等公司的翻译系统中。Systran公司年销售额只有1000多万美元,但在100亿美元的机器翻译市场中,却一度占了内嵌翻译引擎很大的份额。“我们公司如此之小,可我们又是最大的。”Systran 公司董事长自豪地说。
关键的一战终于在2005年打响。已经成为互联网搜索巨头的谷歌公司虽然采用了Systran的规则翻译技术,但一直想充分利用自己的大语料库。从2002年起,谷歌挖来统计语言处理天才弗朗兹·奥克(Franz Och), 组建机器翻译团队。2005年夏天,由奥克设计、尚处于实验阶段的Google翻译系统,在NIST(美国国家标准与技术研究院)组织的机器翻译竞赛中大获全胜,比赛提供100 篇新闻文稿,将阿拉伯语或汉语译成英语,谷歌公司的系统在所有类别上全胜,击败包括IBM在内的全部对手。
奥克赛后披露,他们为自己的系统提供了相当于100万部图书的文本语料进行学习,这成为了提高翻译质量的关键。他还把公司当时采用的Systran中英翻译系统,与其基于统计的实验系统作了对比,认为后者明显优于前者。
这场竞赛,被看成是统计机器翻译系统正式登基的标志。
巴别塔终将建成?
2007年10月,谷歌公司终止与Systran合作,采用自己的统计机器翻译系统。2010年,Systran只好转向,采用规则和统计混合机器翻译系统,后来又引入深度神经网络技术。Systran的变化,说明基于统计的深度神经网络自然语言处理和翻译系统,已经成为主流。但同时,统计翻译也开始重视语法、句法和语义的一些细节,用来完善机器翻译系统。
从此,机器翻译高歌猛进,不断向各个应用纵深发展,也成为衡量巨头科技公司AI水平的一个标志。
谷歌翻译是最有名的机器翻译产品,2006年上线以来,已经能支持 103 种语言,每天处理1800 万次翻译,共1400亿单词,一直是业界的标杆。2016年9月28日,谷歌发布新的神经机器翻译系统GNMT,同时发布了PC和移动版。这套系统克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。据说,在新技术使用后,翻译错误可减少60%及以上。谷歌新的翻译系统在支持困难的中-英文翻译上,有了很大的提升。
谷歌大脑的研究团队甚至表示,虽然它还会犯一些人类译员不会犯的重大错误,比如说漏掉一些词语、脱离语境孤立地翻译句子等,但使用新技术后的翻译质量,已经接近普通人类译员水平。
与前面那位日本专家对谷歌新系统英日翻译能力进行的测试相仿,2017年1月,在美国总统特朗普就职时,中国国内的AI新媒体“新智元”对谷歌的新翻译系统作了中英文翻译测试。输入特朗普就职演说的英文,一分钟后,谷歌翻译全文翻译成中文。新智元的评测结论是:通篇来看,谷歌翻译在正确性上已经让人印象非常深刻,基本上达到70%到80%的正确率。如果不是准确性要求非常严格的文本,在可用性上基本可以满足。
微软一直有规模可观的自然语言处理团队,与谷歌不同,团队最初聚焦于基于规则翻译,但现在已经采用深度神经网络统计翻译。微软的机器翻译系统支持微软产品线上的很多产品,如Bing(必应)、Skype等。2014年12月,微软的Skype翻译器推出了预览版,当时只支持英文和西班牙文在通话中翻译,但已经引起轰动;到了2015年4月,已经能支持中文普通话。尽管Skype的通话翻译还在发展之中,目前翻译的准确率也有待继续提高,但已经让人想象不同语言的人可以无障碍自由通话的美好前景。2016年12 月,微软发布了世界上第一个万能翻译器。除了支持语音识别、拍照识别、直接输入等翻译功能外,它甚至可以实现多达 100 人之间实时翻译交谈,是一个翻译神器。
中国在机器翻译上表现也非常出色。
科大讯飞在语音合成、语音识别和语义理解方面一直走在世界前列,2014和2015年两次在国际汉英翻译大赛IWSLT中获得全球第一,2015年口语机器翻译系统获NIST国际评测冠军。在2016国际知识图谱构建大赛(KBP)上,科大讯飞首次参赛就包揽了赛事核心任务的冠亚军,充分展示了讯飞在自然语言理解、知识推理等领域国际顶尖的技术实力。讯飞的多语种实时翻译技术处于全球先进行列,同样有自己的互译神器——晓译多语种翻译机。AI实力雄厚的科大讯飞,能够面对任何竞争。
与谷歌一样搜索起家、拥有大规模语料库的百度,对机器翻译当然不甘落后。2011年7月,百度翻译上线,到目前已经支持28个语种,同时在PC和移动端应用。2015年5月,百度翻译正式上线神经网络机器翻译(NMT)系统,成为全球第一个实用NMT,比谷歌还要早一年多。同年,百度翻译获得了国家科技进步二等奖,成为首个获此殊荣的中国互联网企业。
百度翻译也有自己的特色,独创实物翻译、涂抹翻译、文言文翻译等功能,能随时随地、便捷地满足中文用户的翻译需求,是中国人工作、生活、旅游、学习的好帮手。
2016年11月,李彦宏在乌镇召开的第三届世界互联网大会讲演时乐观预言:未来的若干年,我们很容易想像语言的障碍会完全被打破,现在做同声翻译的这些人,可能将来就没有工作了。
无独有偶,奇点论鼓吹者、美国未来学家雷·库兹韦尔(Ray Kurzweil)在接受《赫芬顿邮报》采访时也预言:到2029年,机译的译文质量将达到人工翻译的水准。
自然语言处理和机器翻译已经取得了辉煌的成就,重建巴别塔,让全世界不同民族说不同语言的人,实现无障碍交流的日子,不太遥远了。
AI传奇专栏回顾:
第四回 | 助飞的双翼
《环球科学》6月刊现已上市,欢迎点击阅读原文购买
转载请联系 newmedia@huanqiukexue.com